#Claude Code
一年後程式設計師將會逐步消失| Boris(claude code技術負責人) 訪談筆記
來源:Lenny's Podcast,2026年2月,約95分鐘一、他自己怎麼用 AI從去年 11 月到現在沒手寫過一行程式碼。每天 10 到 30 個 PR,全是 Claude Code 出的。早上睜眼第一件事:拿手機打開 Claude iOS 的 code tab,把 agent 派出去跑。同時掛著四五個 agent 平行幹活。他在 Instagram 那會兒就是產出最高的幾個工程師之一。不是本來就寫得少。這一點,從去年11月份到現在還手寫程式碼的同學需要反思了(國央企,保密單位啥的沒辦法的不算),國內用不了claude ios app的也要反思了,不過還不晚,從今天起全部借助 agent,多個agent,另外能搞成skill的節能或者能力的都能搞盡快搞。二、他對程式設計的定調"Coding is largely solved." 至少他自己做的那類活,已經解決了。下一步是 agent 不光寫程式碼,還自己提需求。翻 feedback,看 bug report,讀 telemetry,然後跑來跟你說"這幾個可以修""那幾個可以加"。一到兩年後,學一門具體語言沒啥意義了。就跟現在沒幾個人在乎彙編一樣。年底前 "software engineer" 這個詞會開始退場,換成 "builder"。或者乾脆不分了,人人都是 PM 兼碼農。要立即退出程式設計的行列,不要在古法程式設計了,提升效率,程式語言的學習將沒有意義,這一點挺讓人傷心的,但是不能固步自封啊,前進吧。年底前,軟體工程師將會逐步的,徹底退出歷史舞台,這一點其實有點誇張,borris作為全球最頂級程式設計 agent的負責人,說的激進點沒啥問題,不過明年年底前肯定要退出歷史舞台了。三、資料SemiAnalysis 的報告:GitHub 上 4% 的 commit 是 Claude Code 寫的。這還只是公開倉庫,私有的比例更高。年底可能到 20%。增速不是線性的,還在往上翹。Anthropic 內部工程師產出漲了 200%(按 PR 算)。Boris 之前在 Meta 管程式碼質量, 幾百號人折騰一年也就提幾個百分點。對比之下這個數很離譜。這一點是程式設計師們心裡最痛的一個點,github啊,全球開放原始碼的集中地,後續將會有90%以上的程式碼都是由AI完成,這很難接受,難接受但是很合理。四、這東西怎麼來的剛加入 Anthropic 的時候花了一個月各種瞎搞原型,大部分沒出貨。又花了一個月做post-training,瞭解模型底層。他習慣搞清楚你踩的那層下面那層是什麼。第一個原型叫 Claude CLI。給模型一個 bash 工具讓它自己玩。他隨口問"我在聽什麼歌",模型自己就用 bash 翻出來了。他自己都沒想到這問題能答。發內部公告拿了兩個 like。沒人覺得終端裡能長出什麼正經程式設計工具。為什麼是終端?因為開始就他一個人。終端最省事。後來發現這歪打正著——模型迭代太快了,別的介面根本跟不上。終端正好是最"裸"的殼。2025 年 2 月對外發,一開始也不算爆款。好幾個月大家才搞懂怎麼用。Opus 4 之後開始真起飛。大牛也一樣要經歷沒人理睬的時刻,但是依然保持熱情,結果一下就爆了,在整個AI發展事上Borris恐怕會像linus一樣留下美名,雖然有很多安妮紡織機的工人會很反感他,開玩笑,繼續往下看。五、產品哲學1. 潛在需求(Latent Demand)老版本:看使用者拿你產品在幹什麼歪門邪道,然後把它做成正經功能Facebook Marketplace 是這麼來的:40% 的群組帖子其實是買賣東西。Facebook Dating 也是:60% 的 profile 瀏覽是異性非好友。Co-work 更典型:一堆非技術使用者用 Claude Code 種番茄、分析基因組、恢復硬碟照片、看 MRI 片子。那就給他們做個正經產品算了。這就是傳統的軟體開發流程啊,使用者需要什麼,我們就去滿足它。新版本(AI 時代):看模型自己想幹什麼,順著它的勁兒來。別跟它較勁。2. 別給模型套框一年前可能還需要各種編排器、固定工作流。現在給工具和目標就行,讓它自己找路。Claude Code 從頭就定了"模型即產品"。最少的殼,最少的內建工具,讓模型自己決定用啥、按什麼順序。現在claude code的確是最少的殼,最少的內建工具,用著用著模型會自主決定用那個工具,不帶跟你商量的,其實使用者在用的過程中也不斷的完善自己的一堆skills.3. Bitter Lesson通用模型永遠吃掉專用模型。別在小模型、fine-tune、工作流上花太多力氣,下一版模型出來全給你抹平。他的原話:"Build for the model six months from now." 前六個月產品可能很一般,模型一上來直接起飛。如果一開始大家就知道,通用模型會吃掉專用模型,很多的資金就可以節省下來,很多創業的小夥伴就可以好好的了,不得不佩服段永平先生的一個神觀點:敢為人後,AI初期,攻城略地很有意義,但是觀察整個行業,在合適的時候出手沒問題,不要一開始就跑馬入場,很可能成炮灰,但是學習,持續的觀察整個行業動態是必須的,前置的。4. 少給資源人少反倒逼著人用 AI 想辦法。一個人扛一個項目,自然就想快點出貨。AI 給你加速,不需要老闆在後面催。後邊一個老闆帶著一個有編碼經驗的老碼農就行了,這也是碼農的福利了,一個碼農要兼PM,設計以及測試(其實增加一個測試skill就可以了),老闆在市場衝鋒陷陣,後邊一個碼農就是一個產研團隊,給老闆提供充足的支援。5. 反饋飛輪內部有個 channel 全是吐槽。Boris 早期是有人反饋幾分鐘內出 PR。讓人覺得自己說了算,反饋就越來越多,飛輪就轉起來了。現在 Claude 自己替他幹大部分。激情四射的Borris!六、安全:三層底層:mechanistic interpretability(機制可解釋性),直接看神經元在幹嘛,追蹤"欺騙神經元"之類的東西。Chris Olah 是這個領域的開創者。中層:evaluations,實驗室環境的安全評估。上層:丟到真實世界,看它在野外的表現。所以產品發佈經常叫 "research preview",不是噱頭,是在收真實資料。"Race to the top":把 sandbox 開源了,任何 agent 都能用。想讓行業在安全上捲起來,別比爛。安全是必須要考慮的,AI時代安全比網際網路時代的安全更隱蔽,而且現在在很初期的階段,,前兩天發生了一起使用者用cursor + optus 4.6刪除使用者生產資料庫造成損失的案例,我別的文章有詳細報導。見AI9秒刪庫事件:程式設計師必學的5條安全教訓七、工程師這個角色的去向Cursor 插曲:2025 年中加入 Cursor,兩周走人。原因簡單——他想念 Anthropic 的使命。Cursor 做的事很酷,但他需要工作綁在一個更大的意義上,不然自己待不住。他學程式設計的起點:中學給圖形計算器寫程序,為了數學考試作弊。後來寫了個通用求解器賣給全班,大家一起被抓。老師沒讓他們畢業。從頭到尾程式設計就是工具,不是目的。也承認有人就是愛手寫。隊裡有工程師周末還手搓 C++,就是享受。"以後還會有空間,就像現在還有人寫鋼筆字。"給學生:學校別光盯著程式碼。去學系統架構、產品、設計、商業。以後最搶手的人不是最會寫程式碼的,是能跨好幾個領域、知道到底該造什麼的人。程式設計師同學們,這是個哲人啊,程式設計永遠是工具,不應該是目的,不能贊同更多。或許,以後網路直播手寫程式碼也會成為一個流量的噱頭。還在學電腦沒畢業的孩子們,要去看看這篇文章的原視訊,看看Borris的更詳細的說明,要學架構、產品、設計、商業。後續的人才必須是跨學科的,應該不是說人才,而是普通的打工人也要是跨領域的,一招鮮,吃遍天的時代徹底終結了。八、印刷術這個類比1450 年代以前,歐洲識字率不到 1%。所有文字活全交給抄寫員(scribes)。古騰堡之後 50 年,產出的印刷品比之前一千年加起來還多。成本降了一百倍。200 年後識字率從 1% 到了 70%。沒有印刷術就沒有文藝復興——沒人識字你傳播什麼。有個歷史文獻挺妙的:當時有抄寫員被問到對印刷術的看法,說很高興終於不用抄書了,可以專心做插畫和裝訂(那些更有意思的活)。Boris 把自己跟這個比:不用再折騰配環境、調依賴、修編譯錯誤那些破事了。時間花在跟使用者聊、想方向、跟團隊碰。長期看:程式設計從少數人的手藝變成人人都有的能力,能釋放出什麼?猜不到,但樂觀。短期看:會疼,會有人被淘汰。這是全社會的事,不該一家公司拍板。古騰堡是西方近代印刷術之父,borris舉這個例子就是說明,碼農終於不用手寫程式碼了,終於可以利用自己的頭腦,借助AI做很多自己喜歡做的事情,但是陣痛是不可避免的,長期來看是正向的,積極的。九、對程式設計師說的實在話用最強模型。Opus 4.6 + maximum effort。便宜模型來回修反而更費 token。八成任務先開 plan mode。原理土到掉渣:就是注入一句"先別寫程式碼"。計畫對味了再讓它跑,4.6 下幾乎一把過。給工程師拉滿 token。單人實驗的 token 費遠低過他的工資。真跑出好東西再最佳化成本。各種介面都試試。terminal、desktop app、手機端,那個順手用那個。這不是個純終端工具。多開幾個 agent 平行跑。別一次只跑一個。別怕,去玩。泡在工具最前沿,這是唯一不掉隊的方式。這段既是在宣傳自己的產品,雖然不用宣傳也知道你是最強的,也是在告訴大家一個道理,最貴的可能是最便宜的,而最便宜的可能才是最貴的。我喜歡這種自信。十、零碎但有意思的他生在烏克蘭奧德薩,主持 Lenny 也是。倆人訪談中途當場認老鄉。爺爺是蘇聯第一批程式設計師,用打孔卡寫程序。他媽小時候拿打孔卡當塗鴉紙。進 Anthropic 之前在日本的鄉下住了好幾年,鎮子上唯一寫程式碼的、唯一說英語的。會做味噌。白味噌三個月起,紅的要兩到四年。說是他練耐心用的,也是 AGI 之後的退休方案。書單:《Functional Programming in Scala》(他說是最好的技術書,雖然你可能不寫Scala 了)、《Accelerando》(Charles Stross,節奏和現在 AI 這波一模一樣)、《流浪地球》短篇集(說中國視角的科幻跟西方完全不同,看著新鮮)。格言:use common sense。別看到流程就跟著跑,別看到大家都在做就覺得對。聞著不對勁,它就是不對勁。就這些,這是一個頂級極客,也是一個有意思的很自信的人,碼字不易,歡迎大家點贊推薦打賞三連,原視訊細節更多,歡迎去看。 (米斯特太陽)
撕開Claude Code真相:讓它好用的98.4%,是工程不是AI
當普通人還在鑽研「最強提示詞咒語」時,矽谷頂級實驗室已經把AI基建跑成了生產線。你還在ChatGPT的聊天框裡反覆調prompt?最近,一位X使用者發了條推文,開頭就是一個驚呼:頭部大廠偷偷在用的Claude Code項目範本外洩!這已經不是寫提示詞了。這是AI工程基礎設施。整套打法圍繞一個檔案「CLAUDE.md」展開,而它的核心原則只有三條:每次Claude犯錯→你加一條規則;每次你重複自己→你加一個工作流;每次出bug→你加一道護欄。這樣做,是要把項目經驗沉澱成它每次啟動都會讀取的長期上下文和自動化約束。整個架構,像是一家AI公司的崗位編制:CLAUDE.md是入職手冊,skills/是工作SOP,hooks/是合規部,docs/是公司章程,tools/是後勤組,src/才是真正出活的業務部門。你不再是在和AI聊天了,而是在建構一個瞭解你程式碼倉庫的AI。最瘋狂的部分是,你只需要配置一次,Claude就會自動審查程式碼,並按指令重構、強制執行架構規則、撰寫發佈說明、從技能中運行工作流、記住過去錯誤等。而且它會越用越聰明。大多數人,都是打開ChatGPT,寫提示詞,複製貼上,反覆;而在這套打法下,你只需要打開終端,跑一個skill程式碼已交付。這等於是在自己的程式碼庫裡養了一隊AI同事。這條推文背後,傳遞的是這個時代正在悄悄翻篇的一個小訊號,大多數人可能還沒反應過來。一張不算洩露的「洩露截圖」撕開一個真相@ai_rohitt曬出來的這張截圖,是Anthropic官方文件裡公開推薦的Claude Code標準範式。CLAUDE.md是Claude Code在每次會話開始時自動讀取的項目記憶檔案。.claude/skills/和.claude/hooks/是官方支援的擴展機制。這些都是社區已經討論了幾個月的公開做法,並不是什麼人偷出來的「內部範本」。但它之所以能讓一些資深開發者主動轉發,說明它得到了一些天天用Claude的開發者們的認同。其中相當一部分人,可能這兩天才意識到原來它還能這麼用。而矽谷頂級團隊,已經把這件事跑成了生產線。第一個例子,是OpenAI Frontier團隊。OpenAI官方披露的Frontier團隊實驗中,一個從空repo起步的內部beta,在約5個月內由Codex生成了約100萬行程式碼和約1500個PR;團隊從3人擴展到7人,人工不直接寫程式碼。帶隊的Ryan Lopopolo在後續訪談中進一步提到,這套工作流已經接近「0 人工程式碼、0 人工 review」的極限形態。他認為與其節省token,不如利用模型極高的並行能力和極低的成本來代替人類有限且昂貴的同步注意力。第二個例子,是Stripe內部的自動化程式碼代理系統Minions。Stripe內部的Minions每周生成並推動超過1300個PR合併,這些程式碼從頭到尾由AI生成,但仍經過人工review。這裡還有一對資料:1.6%vs98.4%,它來自Mohamed bin Zayed AI大學VILA-Lab發表的一篇論文。https://arxiv.org/pdf/2604.14228研究者係統性扒了Claude Code v2.1.88版本51.2萬行TypeScript原始碼,給出的結論是:只有1.6%是AI決策邏輯,剩下的98.4%是確定性的工程基礎設施。具體說就是權限閘道器、上下文管理、工具路由、錯誤恢復這四類。這組數字不是說模型只貢獻1.6%的能力,而是說明Claude Code作為產品,大量複雜度不在模型本身,而在權限、上下文、工具路由、恢復機制等確定性工程基礎設施上。@ai_rohitt那張圖裡的CLAUDE.md/skills/hooks結構,就是普通開發者也能搭一套的「入門版基建」,它和OpenAI、Stripe那套生產級架構是同一種範式,只是規模小得多。CLAUDE.md暴露的秘密過去3年,所有人都在問「GPT什麼時候能更聰明」「Claude什麼時候出新版本」。但真正在生產環境跑通AI程式設計的團隊,他們更關心的可能根本不是這個,而是如何讓AI記住自己上次踩過的坑,怎麼讓AI在動手前先看一眼項目的架構約束,怎麼讓AI犯錯的時候自己被工具擋住。CLAUDE.md正是這一切的承載體。Anthropic官方對它的定義只有一句:一個markdown檔案,放在項目根目錄,Claude Code在每次會話開始時自動讀取。https://code.claude.com/docs/en/memory聽上去很簡單,圍繞它展開的那幾層結構,才是它真正厲害的部分。CLAUDE.md是項目大腦。架構決策、命名約定、測試要求、那些反覆踩過的坑,都堆在這裡。它是AI每次啟動時第一眼看到的「員工手冊」。.claude/skills/是可復用工作流。Claude Code的建立者Boris Cherny在社區裡反覆強調一句話:「如果你每天做某件事超過一次,把它變成skill或command。」一個skill就是一段可執行的方法論。Code review、生成commit message、寫發佈說明,這些都不該是每天手敲提示詞的活,應該是skill調一下就出結果。.claude/hooks/是自動護欄。這是最關鍵的部分。它不依賴AI自己判斷,由確定性程式碼在AI犯錯之前就擋住它。這就是為什麼敢讓AI「無人監督」地跑,因為出錯的邊界由hooks卡死了。docs/decisions/是架構決策記錄。讓AI不僅知道程式碼「是什麼」,還知道程式碼「為什麼是這樣」。這一項最容易被忽略,但也是AI協作最大的槓桿點。tools/和src/是執行層。這套架構真正值得注意的地方,不在於某個開發者搞出了一個漂亮目錄,而是越來越多獨立團隊正在收斂到同一個方向:把模型放進一套由上下文、工具、權限、評估和反饋循環組成的harness裡。GitHub上已經能看到不少類似項目:rohitg00的awesome-claude-code-toolkit、diet103的claude-code-infrastructure-showcase、affaan-m的everything-claude-code,都在圍繞agents、skills、hooks、rules、MCP configs等元件搭建Claude Code的工程化工作環境。這說明,真正成熟的AI程式設計工作流,不是只靠一個更強的模型,也不是只靠一條更長的prompt,而是把模型嵌入一套可復用、可約束、可恢復、可審計的工程系統裡。至於具體目錄結構,各家實現並不完全相同。OpenAI實驗室的極限實驗2026年2月11日,OpenAI官方部落格發了一篇文章:《Harness engineering: leveraging Codex in an agent-first world》。https://openai.com/index/harness-engineering/Anthropic圍繞這個概念重新調整了Claude Code的架構思路;Martin Fowler的網站把它凝練成一個公式:「Agent=Model+Harness。」Harness這個詞來自馬術。它指的是馬的整套挽具,韁繩、馬嚼子、馬鞍、籠頭。一匹馬可以跑得很快很有力,但它自己不知道往那兒走:整套挽具決定了它的方向。類比到AI程式設計:模型本身能力很強,但它不知道在你的程式碼庫裡該往那兒走。Harness就是你為它造的方向盤+剎車+導航。OpenAI Frontier團隊那個「100萬行0人工」的實驗,本質就是把Harness做到極致。他們的關鍵工程實踐包括以下幾條。層級架構強約束。從Types到Config到Repo到Service到Runtime到UI,依賴關係單向流動,由linter在CI層強制執行。Agent寫出違反層級關係的程式碼?直接建構失敗。linter錯誤資訊本身是修復指令,這也是最反直覺的細節。普通項目的lint錯誤是「violation detected」,給人看的;OpenAI Frontier的lint錯誤是「use logger.info({event: 'name', ...data}) instead of console.log」,給Agent看的、可以直接讀懂並修復的指令。文件作為單一事實來源。所有架構圖、execution plans、設計規範都在倉庫內部的docs/目錄。Agent不需要任何外部知識庫,一切就在repo裡。這套東西效果有多厲害?模型沒有換,但LangChain調整了harness,包括系統提示、工具、中介軟體和推理模式,最終把Terminal Bench 2.0分數從52.8提到66.5。你今天就能做的事是為AI造一個項目大腦問題回到普通開發者這裡:如果範式已經轉移,作為一個普通工程師,今天就能做點什麼。第一件事,在你最重要的項目根目錄建一個CLAUDE.md。不需要完美,也不需要很長。寫下你團隊的架構規則、命名約定、測試要求、那些反覆踩過的坑,10分鐘能寫完一個能用的版本。下次AI犯錯的時候,先不要手動修,而是問自己一句:CLAUDE.md裡缺了什麼?第二件事,把每天重複做的事改造成skill。這裡要注意Boris Cherny的金句:「如果你每天做某件事超過一次,把它變成skill或command。」Code review、生成commit message、寫發佈說明、修一類重複的bug,這些都該是skill,不該是每天手敲提示詞。第三件事,在容易踩坑的地方加一個hook。Hook是98.4%裡最有槓桿的那部分。它不依賴AI變聰明,它依賴確定性程式碼做強制檢查。這是把人類工程師的判斷力翻譯成機器可讀約束的過程。這件事的核心不在寫程式碼,而在寫規則。Karpathy今年1月在推特上的那句被廣泛轉發的話:「我已經從80%手動寫程式碼變成了80%交給Agent寫。」未來五年,工程師的能力曲線正在從「我能寫多少行程式碼」轉向「我能為AI設計多嚴格的工作環境」。寫程式碼的活兒正在被Agent接管。但設計那個讓Agent能寫出好程式碼的世界,還是人的工作。而且比以前更難、更重要、也更有意思。 (新智元)
講真,DeepSeek V4+Claude Code 就是中國最強 Agent
DeepSeek V4(預覽版)終於在四月底來了!眾望所歸啊。去年 V3 發佈之後大家就開始猜 V4 什麼時候出。之所以周期這麼長,原因很簡單——換卡了,V4 的整個訓練框架都切到了昇騰。要知道,DeepSeek 的深度思考模式,絕對是當時的大模型第一梯隊,甚至是引領者。從 V3 到 V4,這一步真不容易(我接觸到不少小夥伴都不抱期待了)。不管怎麼說,總算是來了。不誘於譽,不恐於誹,率道而行,端然正己。V4 端上來了,V4.1 就快了,威武,哦不,V5 肯定要不了這麼久。注意,V4 這次是全量上線,不需要排隊等資格,直接改 API 裡的 model 參數就可以用。Pro 版改成 deepseek-v4-pro,flash 版改成 deepseek-v4-flash,deepseek-chat 和 deepseek-reasoner 到 7 月 24 號就棄用了。定價方面,pro 比較貴,但 flash 一如既往地親民。在沒有 Coding Plan 的情況下,pro 完成一次開發,價格能接受,但略貴。別的廢話我就不多說了,直接開測。咱就不去寫什麼 demo 了,直接把 DeepSeek V4 接入到 Claude Code 中讓他猛猛幹活。01、Claude Code + DeepSeek V4講真,Claude Code+DeepSeek V4 就是國產最強 Agent。切換模型很簡單,我自己寫了個工具 PaiSwitch,銷售點一點,Claude Code 的底層模型就切到了 DeepSeek V4 Pro。切換底層模型後,重新打開一個終端,輸入 /claude 啟動。可以用 /status 確認下配置是否生效。提示詞:派聰明的聊天入口 http://localhost:9527/#/chat 現在是單窗口模式,我想改成多窗口——能開新對話,舊對話直接歸檔。V4 上來先把整個項目的程式碼結構讀了一遍。讀完之後給了一個改造計畫。要新增那些結構、更新什麼類、重構那塊儲存、頁面佈局怎麼調,都列得明明白白。我全程盯著 token 消耗。讀了那麼多程式碼,加上輸出計畫的量,一塊多。然後開始幹活。V4 規劃了五個任務,先攻後端,再弄前端。後端改了 7 個檔案,前端 5 個,前後大概 15 分鐘。編譯直接過了,有錯誤自己也修了。然後我讓它自己用 CDP 連到 Chrome 跑測試。提示詞:你自己能否 cdp 我的 Chrome 測試一下:http://localhost:9527/#/chat點點按鈕,驗證功能。測出問題自己修。修完繼續測歸檔功能。最後我還讓它最佳化了一下佈局。從頭到尾,Pro 一共花了 10 塊左右。能接受。當然了,有一說一,前端審美這塊確實還比較糙。佈局能用但說不上優雅。功能方面是沒出一點問題。一個好的模型,配上 Claude Code 這種頂級 Harness 架構,能幹的事情就很多了。Claude Code之所以牛X,就是因為。它不只是把你的提示詞轉發給模型,還在中間加了任務拆解、檔案讀寫、終端操作、自動糾錯這些能力。所以同一個 Harness 換不同的底層模型,就能直觀地看出模型之間的差距在那。10 塊錢完成一個完整的功能開發,從程式碼到測試到修 bug,這個成本不算貴。但也不便宜,注意上圖中的小子,下半年卡升級後,pro的加個會大幅下調。很期待下一個版本。02、派聰明 RAG 接入 DeepSeek V4由於我們派聰明RAG做了模型管理。所以我第一時間,也是把 Pro 和 Flash 接上去體驗了一下。問了一模一樣的問題:「派聰明是什麼?」Flash 的回答是這樣的:派聰明是一個企業級的 RAG(檢索增強生成)知識庫項目,最初是技術派實戰項目中用於和 AI 大模型聊天對話的部分(不含檢索增強),後來獨立發展並沿用“派聰明”名稱,旨在延續正宗的皇家血脈。Pro 的回答是這樣的:派聰明是一個企業級 RAG(檢索增強生成)知識庫系統,基於企業文件實現精準的智能問答與知識管理。它最初是技術派實戰項目中的 AI 聊天模組(不含檢索增強),後獨立發展並沿用“派聰明”名稱,旨在延續項目的正統性。系統核心能力包括:文件自動解析與分塊、豆包 Embedding 向量化、關鍵詞與語義混合檢索、基於 DeepSeek 模型的生答、Self-RAG 自驗證機制、JWT+RBAC 多租戶權限隔離、SSE 流式推送等。通過全鏈路閉環,它有效解決知識分散與更新滯後問題,避免大模型“幻覺”,可應用於客服、培訓、合規審查等場景。派聰明完全開源(MIT 協議),教學託管在技術派平台,支援企業私有化部署與二次擴展。一個簡略,一個詳細。畢竟 Pro 啟動參數 49B,Flash 只有 13B,差了將近 4 倍。但重點不在誰答得長。RAG 場景裡,檢索質量才是天花板,模型能力決定的是在這個天花板下能發揮幾成。Flash 的回答雖然短,但核心資訊都抓到了——項目來源、名稱由來、定位。Pro 多出來的那些內容(Self-RAG、JWT+RBAC、SSE 流式推送),其實全都是從知識庫裡檢索出來的原始文件內容,它只是組織得更完整。換句話說,如果你的知識庫文件質量高、分塊合理,Flash 完全夠用。03、DeepSeek V4 值得聊的一點傳統 Transformer 的注意力機制,每個 token 要和前面所有 token 都算一遍相似度。上下文能從 10 萬拉到 100 萬,這是長上下文一直跑不起來的根本原因。DeepSeek 的解法是把注意力拆成兩種,交替堆疊起來用。第一種叫 CSA,全名 Compressed Sparse Attention,壓縮稀疏注意力。它的邏輯是先把每 4 個 token 的 KV 快取合併成一條摘要,然後用 Lightning Indexer 快速估算相關性,讓每個 query 只從這些摘要裡挑出最相關的 top-1024 個去算。DeepSeek V4 pro繪圖第二種叫 HCA,全名 Heavily Compressed Attention,重度壓縮注意力。每 128 個 token 才合併成一條,但不做稀疏選擇,所有壓縮後的摘要全部參與計算。HCA 的定位是維持全域視野,保證模型不會丟了對整段文字的把控。再加一個 128 token 的滑動窗口管局部依賴。也就是說,CSA 負責精細化檢索,HCA 負責全域審視,滑動窗口管好眼前。可以這樣理解這個設計:讀一本 1000 頁的書,傳統注意力是把每一頁和前面所有頁都對比一遍,翻到第 1000 頁的時候要同時記住前 999 頁的細節,腦容量直接爆炸。CSA 的做法是把每 4 頁貼一張便簽紙,唯寫摘要,然後看到某一頁時只去翻最相關的 1024 張便簽紙。HCA 的做法更絕——每 128 頁才貼一張便簽紙,但所有便簽紙都看一眼。再加上手裡的那一頁(滑動窗口),局部細節、中程邏輯、全域脈絡都有了,但腦容量得消耗只有原來的十分之一。04、DeepSeek 真的很克制最讓我意外的是 DeepSeek 官方這次的措辭。公告裡是這樣寫的:使用體驗優於 Sonnet 4.5,交付質量接近 Opus 4.6 非思考模式,但仍與 Opus 4.6 思考模式存在一定差距。沒有「吊打」,沒有「碾壓」,沒有「遙遙領先」。在充斥著「超越 GPT」「全球最強」「里程碑式突破」的當下,這種「我們確實還差一截」的表態真的很真誠。「不誘於譽,不恐於誹,率道而行,端然正己。」V4 不是一個完美的模型。就我自己的使用體感下來看,前端這塊的處理我認為還是有很大進步空間的。這種實心的線條來佈局,有點回到返璞歸真的。😄下一版不急,按你的節奏來。 (沉默王二)
GPT-5.5 發佈!Claude Code 連夜治好降智,「奧特曼癱倒」喜提續集
據外媒 Business Insider 報導,Anthropic 在私募二級市場的估值已突破 1 兆美元。作為參照,OpenAI 今年 3 月末最新一輪融資的估值,仍停留在 8520 億美元。除了業內老生常談的「AI 泡沫論」,這組對比資料也表明了曾經穩坐頭把交椅的 OpenAI,如今正在直面被追趕、被超越的壓力,但沒有讓我們等待多久,OpenAI 的反擊旋即而至。就在剛剛,GPT-5.5 正式發佈,同步亮相的還有面向更高階任務的 GPT-5.5 Pro 版本。如果用一句話總結 GPT-5.5 的核心設計思路,那就是讓使用者把一團雜亂、多步驟的複雜任務直接拋給模型,由它自主規劃路徑、呼叫工具、校驗結果、消解歧義,並一路推進。看似只是 0.1 的版本號迭代,在推理效率上卻判若大版本更新—— 同樣的 Codex 任務,GPT-5.5 消耗的 token 顯著更少,既更聰明,也更省。吐槽了一個多月,偏偏等到 GPT-5.5 發佈,Anthropic 才想起要解決降智問題GPT-5.5 登場,不講武德的屠榜GPT-5.5 的紙面成績非常可觀。在知名第三方評測機構 Artificial Analysis 的綜合智能指數榜單上,OpenAI 憑藉 GPT-5.5 系列拿下了第一名和第二名,前六席中包攬了四席,競爭對手幾乎毫無招架之力。基準測試結果顯示,在 Terminal-Bench 2.0(測試複雜命令列工作流)上,GPT-5.5 達到 82.7%,GPT-5.4 為 75.1%,Claude Opus 4.7 為 69.4%。在 SWE-Bench Pro(評估真實 GitHub 問題解決能力)上,GPT-5.5 達到 58.6%,能在單次運行中端到端完成更多工,超過 GPT-5.4 的 57.7%。在 OpenAI 內部的 Expert-SWE 評測上,任務的人類預計完成時間中位數為 20 小時,GPT-5.5 達到 73.1%,GPT-5.4 為 68.5%。且在三項評測上,GPT-5.5 均以更少 token 完成任務。只不過,OpenAI 這次也玩起了腳註裡的小心思,用一行小字暗戳戳質疑 Claude Opus 4.7 部分成績的可信度。但網友 Deedy 對此並不買帳,在他看來,這行備註更像是轉移注意力 —— 畢竟 OpenAI 自己也沒能拿出一套更透明的公開基準,正面佐證 GPT-5.5 的實力。在智能體編碼、computer use(電腦使用)、知識工作和早期科學研究等領域,GPT-5.5 的提升尤為顯著。早期測試者反饋,GPT-5.5 在理解大型程式碼庫整體結構方面明顯更強,能主動預判潛在問題,提前考慮測試和審查需求,無需額外提示。知名評測博主、Every 創始人 Dan Shipper 分享了一個具體案例:他的應用上線後出現問題,自己偵錯數天未果,最終請來工程師重寫了部分系統。他用 GPT-5.5 重現這一場景,結果模型給出了與工程師相同的解決思路,而 GPT-5.4 則無能為力。Cursor 聯合創始人 Michael Truell 表示,GPT-5.5 比 GPT-5.4 更聰明、更有韌性,工具呼叫更可靠,面對複雜長期任務時能堅持更久而不中途停下。更誇張的是,一位輝達工程師在早期體驗後直言:「失去 GPT-5.5 的存取權,感覺就像是我的肢體被截肢了一樣。」如無意外,又一個名梗的誕生(哈??)不過,考慮到奧特曼看完 GPT-5 演示之後,直接「眩暈無力、癱倒在地」,而且這件事到今天也沒有一個正經解釋,輝達工程師這句話,好像也沒那麼誇張了。而在知識工作場景,GPT-5.5 也有著出色的表現。在衡量模型橫跨 44 種職業知識工作能力的 GDPval 評測中,GPT-5.5 獲勝或打平比例達 84.9%,GPT-5.4 為 83.0%,Claude Opus 4.7 為 80.3%,Gemini 3.1 Pro 僅 67.3%。在 OSWorld-Verified(測試模型能否自主操作真實電腦環境)上,GPT-5.5 達到 78.7%,GPT-5.4 為 75.0%,Claude Opus 4.7 為 78.0%。在 Tau2-bench Telecom(測試複雜客服工作流)上,GPT-5.5 在無提示詞調整的情況下達到 98.0%,GPT-5.4 為 92.8%,差距相當明顯。在其他專項評測上,GPT-5.5 在 FinanceAgent v1.1 達到 60.0%,內部投行建模任務達到 88.5%,OfficeQA Pro 達到 54.1%(Claude Opus 4.7 為 43.6%,Gemini 3.1 Pro 僅為 18.1%)。在 BixBench(圍繞真實生物資訊學和資料分析設計)上,GPT-5.5 達到 80.5%,GPT-5.4 為 74.0%,在已發佈分數的模型中排名第一。在 GeneBench(測試遺傳學和定量生物學的多階段資料分析)上,GPT-5.5 達到 25.0%,GPT-5.4 為 19.0%,Pro 版本達到 33.2%。這些任務通常對應科學專家數天的工作量。OpenAI 內部有超過 85% 的員工每周使用 Codex,覆蓋軟體工程、財務、傳播、市場、資料科學和產品管理等部門。財務團隊用 GPT-5.5 審查了 24771 份 K-1 稅務檔案,共計 71637 頁,最終比上一年提前兩周完成。傳播團隊打造了一套自動化 Slack 機器人,負責處理低風險請求自動處理,市場團隊的一名員工則用它自動生成每周業務報告,每周節省 5 到 10 小時。此外,GPT-5.5 的一大亮點還在於推理基礎設施的協同升級。GPT-5.5 與 NVIDIA GB200 和 GB300 NVL72 系統聯合設計和訓練。其中一項關鍵改進是負載平衡和分區策略,Codex 分析了數周的生產流量資料,編寫了自訂啟髮式演算法來動態最佳化分區和負載平衡,最終將 token 生成速度提升了超過 20%。OpenAI 還指出,GPT-5.5 本身也參與了改進自身推理基礎設施的過程。GPT-5.5 即日起向 ChatGPT Plus、Pro、Business、Enterprise 使用者開放,Codex 支援最高 400K 上下文窗口,並提供 1.5 倍速的 Fast 模式(費用為標準價格的 2.5 倍)。GPT-5.5 Pro 則面向 ChatGPT 的 Pro、Business 和 Enterprise 使用者推出。API 版本即將上線,標準定價為每百萬輸入 token 5 美元、每百萬輸出 token 30 美元,上下文窗口為 1M token。批次處理和彈性定價為標準價格的一半,優先處理模式為標準價格的 2.5 倍。GPT-5.5 Pro 的 API 定價為每百萬輸入 token 30 美元、每百萬輸出 token 180 美元。OpenAI 表示,由於 token 效率的提升,大多數使用者的實際使用成本不會有明顯增加。閉口不提 Claude Opus 4.7,卻句句都在內涵。OpenAI 要做 AI 時代的超級入口沒有那一款模型能收穫一邊倒的評價,GPT-5.5 同樣如此。網友 @chetaslua 用一條提示詞在 Codex 中生成了一個帶有風效應物理引擎的完整網站,物理互動和介面設計一併到位,感嘆「這是我第一次覺得 ChatGPT 可以成為解決一切問題的首選 AI 工具」。網友 @petergostev 讓模型生成了一個包含倫敦地標和季節變化的玩具鐵路場景,與 GPT-5.4 的輸出對比後,他的結論是「GPT-5.5 更有野心、一致性更強,錯誤更少」,並在更複雜的應用遷移任務中讓模型連續工作數小時,沒有出現卡殼。當然,吐槽的聲音同樣存在。網友 @arrakis_ai 發現,GPT-5.5 在遇到複雜佈局時有時會直接生成一張圖片了事,處理圖示需求時會從頭硬寫 SVG 而不呼叫現成庫,同時頻繁暫停追問使用者,執行力反而不如從前果斷。文筆方面,我的個人體驗也有類似感受。GPT-5.5 確實比前代更會組織語言了,至少已經能說點人話,但依然有一股怪味:「我就在這裡,不躲,不藏,不繞,不逃, 穩穩地接住你 」。並且,不少網友也注意到,OpenAI 在基準測試榜單上也動了些行銷的心思。網友 Haider 認為,GPT-5.5 和 Mythos 的差距沒有預想的那麼懸殊,而 Mythos 定價是 GPT-5.5 的兩倍,且不公開發售。他的判斷是,下一代 GPT 趕上 Mythos 應該問題不大。據外媒 Techcrunch 報導,面對記者關於「GPT-5.5 是否具備類似 Mythos 能力」的刺探時,OpenAI 技術人員 Mia Glaese 給出了一個滴水不漏卻暗藏鋒芒的回答:「我們在網路安全方面有著長期且強有力的戰略,並且已經完善了一套持久的、安全推出模型的方法。」話外之音已經十分明朗:單一的強大模型終究只是過客。真到了拼數字防禦和企業級落地的深水區,OpenAI 的生態壁壘,才是 B 端客戶唯一穩妥的安全牌。而隨著 GPT-5.5 的登場,OpenAI 的野心已經足夠清晰:他們不再滿足於做一個聰明的聊天機器人,而是要親手打造一個吞噬一切工作流的「AI 超級應用(Super app)」。在接受外媒採訪時,OpenAI 總裁 Greg Brockman 用了一個詞「自主性(Agentic)」來形容這次模型的進步跨越。與前代模型 GPT-5.4 版本相比,GPT-5.5 消耗的 Token 更少,但思考速度更快、邏輯更清晰,開始展現出主動解決複雜問題的能力。這正是邁向超級應用的堅實底座。奧特曼今晚異常興奮,還更換頭像了所謂超級應用,便是將 ChatGPT、Codex 與 AI 瀏覽器深度融合為統一服務。想像未來的工作流:人們不必再在瀏覽器、程式碼編輯器、資料分析工具之間反覆切換。只需對著這個超級應用下達一個宏觀指令,GPT-5.5 就能自主在後台打開網頁蒐集資料、編寫爬蟲程式碼、清洗資料,最終直接交付一份完整的分析報告。當然,猶如 Claude 與 Claude Code 的強繫結,OpenAI 也意在替 Codex 的增長勢頭加一把火。最近,奧特曼表示,Codex 活躍使用者在突破 300 萬不到兩周後便直逼 400 萬大關,OpenAI 隨之重設速率限制,以「量大管飽」的姿態收割開發者生態。一方面,憑藉 GPT-5.5 與 GPT-Image-2 的強勢表現,正面回擊了 Anthropic 在估值預期上的壓力;另一方面,則利用 Codex 的生態粘性緊鎖開發者陣地,穩步構築起橫跨 C 端消費與 B 端企業級服務的完整服務體系。攻守之勢異也,今年以來被詬病掉隊的 OpenAI,終於重新找回兩年前的進攻節奏,並將精力放在了踏踏實實打磨產品上。 (APPSO)
Anthropic “王牌”Claude Code原始碼洩露 國產AI程式設計工具迎來機遇
2026年3月31日,一場因打包失誤引發的“意外開源”,讓Anthropic引以為傲的AI程式設計工具Claude Code的51.2萬行核心程式碼在全球開發者社群中瞬間擴散。這不是一次駭客攻擊,而是人為發佈錯誤——偵錯用的.map檔案被一同打包進npm包,暴露了完整架構與功能邏輯。短短數小時內,GitHub上湧現大量鏡像倉庫;次日,Anthropic為阻止擴散發出下架請求,卻因操作失誤誤刪約8100個倉庫,引發使用者強烈不滿。這場戲劇性的洩露事件,恰逢Anthropic籌備IPO的關鍵期,不僅重創其“安全標竿”形象,更意外地為全球AI開發工具的技術平權撕開了一道口子。▍戲劇性洩露:從低級失誤到 “自殺式” 下架這場原始碼洩露的開端,是一個幾乎所有開發者都熟悉的低級錯誤。2026年3月31日14 時,Anthropic 在 npm 倉庫發佈@anthropic-ai/claude-code v2.1.88版本,卻意外將包含完整原始碼的 59.8MB 偵錯用 cli.js.map 檔案打包其中。Web3 安全公司 FuzzLand 實習研究員Chaofan Shou(@Fried_rice在16時30分左右率先發現並披露了這一漏洞,檔案中的sourcesContent欄位直接包含了未經混淆的完整 TypeScript 原始碼,可直接還原 Claude Code 的全部核心邏輯。消息在開發者社區如野火般蔓延,數小時內GitHub上出現大量鏡像倉庫,星標數量迅速破千。更具諷刺意味的是,這已是Anthropic在13個月內第二次因同類source map問題導致原始碼洩露,暴露了其CI/CD流程存在嚴重漏洞,且未從歷史錯誤中吸取教訓。事件的戲劇性在4 月1日(愚人節)達到高潮。Anthropic為阻止程式碼擴散向 GitHub發出下架請求,卻因範圍判斷失誤,誤刪了約8100倉庫,其中包括自身開放原始碼專案的正常分支,引發全球開發者強烈不滿。Claude Code負責人鮑裡斯・切爾尼隨後緊急承認誤操作,撤回大部分下架請求,僅保留對1個倉庫及96個分支的處理,GitHub也已恢復多數受影響倉庫的存取權。一位不願具名的網際網路大廠技術專家對此評論道:“嚴謹地說,原始碼被洩漏的這種情況,沒有許可證來授權如何使用、修改、再分發的,不應該說是‘開源’,大概相當於說錢丟在路邊不算是‘功德’。” 這句評論精準點出了此次事件的本質 —— 一場由人為失誤導致的 “被動開源”,而非 Anthropic 主動開放技術的善舉。▍技術平權:從閉源壟斷到生態爆發儘管此次洩露源於失誤,卻意外成為AI領域的技術民主化催化劑。快思慢想研究院院長田豐告訴《科創板日報》記者:“2026 年 Claude Code 原始碼洩露事件,即是AI領域里程碑式危機,又是行業變革催化劑。51.2 萬行核心程式碼的意外公開,直接導致技術壁壘崩塌與開源生態爆發。”這場 “意外開源” 的直接成果,是韓國開發者Sigrid Jin的clean-room項目 ——Claw-Code。該項目採用 “淨室重寫” 原則,完全不接觸、不參考原始原始碼,僅根據對產品功能的外部觀察,從零重新實現一遍,2小時內獲5萬星標,目前已超10萬星標、9萬fork,更催生了多語言重寫版本。田豐指出,這標誌著閉源壟斷模式受重創,技術普惠加速,行業競爭核心從‘程式碼保密’轉向模型質量、生態整合與安全治理。對全球 AI 開發者而言,洩露程式碼提供了 “工程教科書” 級參考。在田豐看來,多 Agent 協作、超長上下文管理及六級權限沙箱等設計,已助力某國產團隊程式碼生成精準率提升 40%。這些技術細節此前被 Anthropic 視為核心商業機密,如今卻成為全球開發者的 “免費午餐”,大幅降低了 AI Agent 工程化門檻,加速了開發者生態競爭,助力中小團隊快速追趕。此次洩露還意外推動了AI開發工具領域的技術平權。田豐分析道:“Anthropic‘安全標竿’形象因兩次重大洩露徹底瓦解,警示全行業:安全漏洞將引發系統性信任危機。” 這一事件讓全球企業客戶開始重新審視對單一閉源工具的依賴風險,為技術自主可控的國產工具創造了市場窗口。▍國產AI程式設計工具:借鑑而非複製,創新而非跟隨對國產大模型與 AI 程式設計工具而言,此次洩露堪稱 “史詩級” 的技術補課與彎道超車機會。田豐認為:“機遇與挑戰並存,關鍵在於如何把握。”在技術層面,洩露程式碼為國產團隊提供了直接學習全球頂尖AI程式設計工具架構的機會。此前,國內AI程式設計工具在自主Agent、安全沙箱等領域與海外頭部產品存在差距,而Claude Code原始碼提供了可直接參考的工程方案,包括動態提示詞系統(分層快取省成本)、YOLO安全分類器(防誤刪)、Auto Dream記憶機制(後台整理不佔 token)及44個功能開關等核心元件。國內團隊無需再重複試錯,可直接基於現有架構最佳化迭代,快速推出具備競爭力的產品,實現 “彎道超車”。在市場層面,Anthropic的信任危機為國產工具打開了窗口。復旦大學復旦大學計算與智能創新學院一位人士指出:“企業客戶對資料主權、本地化部署的需求激增,國產工具可借勢強化安全可控與國產晶片適配性,在合規與信任上建立差異化優勢。”他指出,2025年底Claude曾對中資斷供,大量國內產品依賴Claude核心被迫緊急換模型、損失使用者。現在,國產團隊有能力完全自研程式設計agent架構,後端可自由切換國產模型(DeepSeek、Qwen、Seed、文心等),實現AI開發工具自主可控,不再被海外 “卡脖子”。田豐則特別強調,此次Claude Code原始碼提洩露,對於國內大模型企業的核心在於 “借鑑而非複製,創新而非跟隨”。他提出三點建議:一是差異化功能突破,如融合中文環境最佳化、國產IDE整合、本土程式碼規範檢查;二是安全能力升維,打造更嚴苛的發佈管控與透明審計機制,將安全作為核心賣點;三是生態突圍,聯合雲廠商建構託管服務,發展本土外掛生態。同時,他也警示必須警惕法律風險,避免直接使用洩露程式碼,而應通過clean-room重寫實現技術遷移。AI大模型業內普遍認為,這場 “意外開源” 雖源於失誤,卻加速了AI開發工具的技術平權。“未來競爭焦點將轉向資料積累、工作流整合深度及品牌信任,國產工具唯有從‘模仿’轉向‘價值創新’,才能把握技術民主化浪潮,建構自主生態系統。國產玩家需以安全為盾、創新為劍,在行業重構中搶佔制高點。” (財聯社)